数字化为古籍研究带来怎样的“蝶变”
数字化为古籍研究带来怎样的“蝶变”
数字与古籍,以前像两条泾渭分明的河流。
当它们相遇后,能产生怎样的效能和反应?
循着新近出台的《关于推进新时代古籍工作的意见》所提出的“推进古籍数字化”“积极开展古籍文本结构化、知识体系化、利用智能化的研究和实践”等要求,记者采访了国内从事古籍智能化研究的学者,探一探数字化能给古籍保护与研究带来怎样的“蝶变”。
沉寂的典籍,动起来了
一幅横向流动的《千里江山图》上,标注了“涑水”“濂溪”“玉山”等若干个古地名。数百个衣袂飘飘的儒生,正在图上缓缓挪动,像是在“赶路”。他们从一个地方挪到另一个地方的行程,代表着他们的求学历程和所属学派。
这是北京大学人工智能专业学生马源和她的同学们向首届“北京大学数字人文作品展”所提交的展品——用JavaScript完成的H5习作,取名为“宋元学案传承可视化系统”。
“像《宋元学案》这样的大部头古籍,离我们的时代太遥远了。如果不是做专业研究的学者,可能根本想不起来要翻阅它。我们想通过这种像游戏界面一样的形态,吸引年轻人了解古籍。”马源说。
展览现场,同样能带来“跃动”感的,是北京大学中国古代史研究中心副主任史睿指导桑宇辰等同学制作的“朱子年谱可视化系统”,它利用GIS(地理信息系统)技术,对《朱熹年谱长编》进行了时空的可视化呈现,读者能自主点击、了解朱熹求学、游历、交友的生平。
数字技术甚至赋予古籍研究人文学科的能力,远不止让它们像游戏一样动起来。
“数字人文代表着智能信息环境下,人文社会科学研究范式的转型,从传统的文本驱动向数据驱动转型。人文研究的材料,如文献、图录、器物等,都可转化成某种形态的数据,从而使得大数据和人工智能技术也能处理它们。视觉化只是数字人文带来的附带效应,让人易于理解学术成果。而其深层逻辑,是研究范式的变化。”北京大学数字人文研究中心主任王军教授告诉记者。
展览现场有他指导的博士生王林旭对《宋元学案》《明儒学案》《清儒学案》所做的数据挖掘成果展示——
“学术关系网络图”,用正则表达式对《宋元学案》和《清儒学案》进行人物关系统计,共有“弟子”“家学”“私淑”“同调”“学侣”“讲友”“交游”“从游”“其他”9种类型,出现频次一目了然。
“通过知识图谱的重构,古籍不再是一座座文字的大山,古文里的内在结构和语义关系能在短时间内被清晰的抽绎和展示出来。”王军说。
除了中国古籍能“数”读,国外的古籍能“数”读吗?
答案是肯定的。
在北京大学外国语学院西葡意语系教师成沫对意大利诗人但丁进行的数字化研究项目中,《神曲》中重复频率最高的三行诗韵律结构valle(山谷)、spalle(肩膀)、calle(小道)被精准地提炼了出来。
不仅是“读取”,还要能“演绎”
过去的典籍研究,主要靠大师。
大师在大量阅读文献的基础上,靠一己的记忆与思辨能力,产出具有思想性的研究成果,再诉诸笔端,以文字的形态传递给大众。
机器智能辅助下的典籍研究,则是以数据为基础的。在机器智能的介入下,学者能获得瞬间处理海量资料的能力,王军分析。
清华大学中文系教授刘石和首都师范大学中国诗歌研究中心专职研究员尹小林发表的一篇文章,对先秦到清代的百部经典古籍做了大数据分析,发现颇丰。如果依赖于人工统计,这样的成果是难以在短时期内产生的。数字带给经典典籍研究的变化之一,是效率的提升。
“在诗歌研究领域,前辈学者主要通过例证,来进行分析和总结中国古典诗词的声律。后来出现了手工标注统计和基于大量诗词的定量分析统计。然而这些研究结论都来源于人工统计,单项研究的耗时长。”北京大学中文系教授杜晓勤回顾道。
有没有一个软件,能“一键”就准确标注所有中国古典诗词的声律格式和合律程度呢?
从2004年起,杜晓勤等开始建设中国古代音韵数据库和中国古代诗歌文本数据库,共录入1万多个汉字的音韵和900多万字的诗歌。在此基础上,他们研发了“中国古典诗歌声律分析系统”。这个系统,能快速、大批量标记与统计分析中国古典诗歌的声律。
利用这个系统,杜晓勤撰写了《齐梁诗歌向盛唐诗歌的嬗变》《六朝声律与唐诗体格》等多部专著,刊发了多篇论文。
在古籍数字化领域耕耘多年,王军想做的不仅仅是对古籍进行单向度的知识抽取和信息集成。
他指导唐雪梅、严承希等博士生研发的古籍自动整理系统,通过对算法的深度学习和大规模语料训练,能对古籍的句读和人名、地名、职官、书名、时间五类实体进行自动标记。其中句读平均准确率达94%,命名实体识别在史料上的准确率达98%。
“智能技术支持下的古典文献研究,是未来古籍研究的重要方向之一。”王军说。
人文学科新气象的“薪火”,从这里诞生
“昨夜星辰昨夜风,千秋灵会此宵同。一枝月桂和烟秀,人在琼楼玉宇中。”在一次公开演讲中,清华大学计算机科学与技术系教授孙茂松向听众展示了一首诗。
“你们能看出,这是一首从4篇古诗里摘录句子组成的集句诗吗?关键是,能看出这是机器人创作的吗?”孙茂松问。
通过算法和深度学习,人工智能已经能媲美人类进行摄影、画画、作曲、写诗。
创造性,这一人类所独有的领域,正逐步被机器介入,由此也产生了一些伦理问题——例如,机器通过习得而非人类在感情充沛时产生的创造物,能被称为“艺术”吗?
同样的问题,也易产生在人工智能赋能后的人文学术研究领域。
机器介入各类古籍研究后产生的结果,如各类统计数据、可视化“图谱”或者“页面”,能被认定为具有思想性的人文研究成果吗?如果能,怎样量化它们的学术价值?
“这些应该也算作成果的一种形式。在各个学界,对数据集的重视都在日益增强,以古籍研究为基础的史学、文学等人文学科不应轻视,而且要更加重视。而可视化本身,一方面可以帮助学者获得更多洞见,另一方面也能更好地向大众进行传播。有一些方式,是传统手段难以达到的,是人文学科新气象的‘薪火’,需要保护好。”北京大学智能学院教授袁晓如这样回答记者的疑问。
“无论是可视化成果本身,还是成果产生的传播效应,都是可以计量的。当然,虽然数据驱动将智能技术引入了人文学科,但是数据的使用和意义的阐释,还是需要人文学者的介入和指导。”王军说。
新近出台的《关于推进新时代古籍工作的意见》要求,“加强古籍数据流通和协同管理,实现古籍数字化资源汇聚共享”“支持古籍数字化重点单位做强做优,加强古籍数字化资源管理和开放共享”。
这背后,有着怎样的原因?
“因为古籍智能化及以其为基础的人文学术研究需要大量的资金投入。计算工具平台、数据资源、技术服务团队等,都需要投入。然而,每个研究机构的资金实力是不一致的。传统依靠一两位学者皓首穷经就能产生大量成果的研究方法,在数字化时代可能不适用了。为了弥补资金投入差别造成的学术鸿沟,就有必要加强共享。”王军谈道。
“北京大学可以肩负起建设国家基础设施的任务,同时也将这些设施对外分享,帮助偏远地区或者学术资源不足的地方开展研究。”袁晓如说。
古籍数字化保护与利用的新乐章,已经奏响了。